返回
整理时序差分算法的核心思想,对比TD与MC的区别,并梳理Sarsa、n-step Sarsa与Q-learning等经典算法的更新机制与理论依据。
reinforcement learning
td learning
sarsa
q-learning
学习笔记